No início dos anos 80, com o aumento do interesse pela telefonia visual, oferecer serviços economicamente acessíveis, através das linhas telefónicas, impunha a compressão dos sinais de fala e vídeo.
Surge a necessidade de compatibilizar tanto os algoritmos de compressão, como os equipamentos dos vários fabricantes, por forma a tornar possível a comunicação entre eles (interoperabilidade).
Em 1990, o processo de normalização dos equipamentos de videotelefonia, em canais de baixo débito, culminou na aprovação da primeira versão da recomendação H.320, divulgada pela ITU [4]. A recomendação acompanha a evolução tecnológica das comunicações audiovisuais, com diversas revisões e com sucessivas actualizações.
A recomendação H.320 faz referência às possíveis recomendações técnicas que definem em particular cada elemento do sistema.
A arquitectura do terminal de videotelefonia/videoconferência, esboçada na figura1, destaca os principais elementos do terminal.
O terminal deve ter capacidade para operar em multiponto, e suportar a sinalização associada a este modo de operação, embora na recomendação não venha especificada a unidade de controlo de multiponto (Multipoint Control Unit, MCU).
Os equipamentos de entrada/saída de áudio, vídeo, e telemático não são objecto de normalização; os equipamentos não são especificamente vocacionados para comunicações H.320.
O equipamento de entrada/saída do vídeo inclui câmaras, monitores, unidades de processamento, que podem permitir a visualização simultânea de vários intervenientes numa conferência (split screen); o do áudio inclui microfones, altifalantes e unidades de processamento, com a capacidade de cancelamento de eco acústico; já o telemático inclui equipamentos tais como quadros electrónicos e, equipamento para conversação por texto.
O módulo de controlo do sistema (system control) contribui para a sinalização de acesso à rede, o estabelecimento de um modo de comunicação comum entre terminais e, a sinalização relativa ao funcionamento do terminal.
Os codecs (COder & DECoder) de áudio e vídeo gerem a compressão dos sinais de áudio e vídeo.
A recomendação, de modo a garantir níveis de interoperabilidade entre terminais, define uma hierarquia para a inclusão dos codecs de vídeo nos equipamentos H.320. Esta hierarquia é caracterizada pela resolução do sinal de vídeo e pelo desempenho relativo proporcionado pelos diferentes tipos de codec. Todos os terminais com capacidade de comunicação de vídeo suportam H.261.
O módulo de atraso (Delay) é inserido no percurso do sinal de áudio para compensar o atraso do codec de vídeo, e sincronizar o áudio e o vídeo. O Delay é opcional, mas os dois terminais devem estabelecer o mesmo tipo de operação nesta medida.
O módulo MUX/DMUX realiza a multiplexagem e desmultiplexagem do vídeo, do áudio e dos sinais de controlo.
A interface de rede (Network Interface) está encarregue pela adaptação entre a rede de comunicação e o terminal, de acordo com os requisitos da interface utilizador-rede.
A MCU consiste num equipamento instalado na rede ou num equipamento terminal que processa vários sinais audiovisuais de modo a possibilitar comunicações de multiponto.
Os requisitos do canal impõem limitações de débito, que influenciam a facilidade com que se transmite e manuseia informação. A evolução das tecnologias de compressão de vídeo e áudio veio permitir um maior aproveitamento do débito.
A interoperabilidade é fundamental, e requer a especificação e adopção de normas de codificação audiovisual.
Processo de codificação e descodificação de vídeo: O sinal de vídeo comprimido é multiplexado com os parâmetros de codificação. Esta informação é armazenada na memória de saída, que informa o módulo de controlo da codificação, do seu estado de enchimento ou ocupação. A taxa de ocupação da memória de transmissão induz no controlador da codificação a regulação de débito binário gerado, nomeadamente através de alteração do passo de quantificação do codificador. O codificador de canal introduz mecanismos de protecção do fluxo de dados contra erros do canal. Na descodificação do sinal de vídeo, o fluxo de dados comprimido é processado pelos diversos módulos, por uma ordem inversa à do processo de codificação [8].
Um codificador de áudio funciona de acordo com os modelos estabelecidos para o limiar do efeito de máscara e para as limitações da audição humana. Vai desprezar as componentes a que o ouvido humano não é sensível. Este processo tem por objectivo mimicar as características próprias do ouvido humano.
Banco de filtros: realiza uma decomposição tempo-frequência, do sinal de áudio, quer para permitir identificar as oportunidades de efeito de máscara, quer para permitir moldar o ruído de quantificação.
Modelo psicoacústico: analisa o sinal de áudio a codificar, comparando-o com a perspectiva do sistema auditivo humano, de modo a estimar o limiar de efeito de máscara para esse sinal.
Quantificador: realiza a quantificação do sinal de áudio num domínio adequado para moldar o ruído de quantificação (na frequência, tempo ou espaço) de acordo com as oportunidades de efeito de máscara estimuladas pelo modelo psicoacústico.
O ganho de compressão vai ser o resultado da combinação da redução da redundância (sem perdas) com a redução da irrelevância (com perdas). O conteúdo irrelevante do sinal de áudio consiste nas componentes do sinal que podem ser suprimidas ou substituídas por ruído de quantificação [9].